La paradoja de la optimización por resultados en LLMs Los LLMs optimizados por resultados alcanzan altos benchmarks pero colapsan en razonamiento. Te explicamos la paradoja y cómo los modelos de recompensa de procesos la resuelven. 2026-06-02 · 1 min